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摘要 : 【目的 】 在 数字 资源 长 期 保存 系统 (DPS) 中 应 用 开源 格式 识别 工具 获取 复杂 对 象 的 格式 信息 。[【 应 用 背景 

在 现 有 开源 工具 的 基础 上 , 为 满足 DPS 的 实际 需求 、 保 障 效率 和 执行 效果 ， 需 选择 合适 的 工具 进行 二 次 开发 和 
集成 应 用 。[【 方 法 】 分 析 比 较 现 有 两 种 常用 工具 , 选取 DROID 作为 DPS 的 格式 识别 工具 , 同时 针对 DPS 效率 要 
求 , 提出 选用 DROID 批量 格式 识别 的 处 理 思 路 , 并 对 其 进行 有 效 封装 。 【结果 】 将 DROID 封装 为 “DPS 的 批量 
格式 处 理 模 块 " 并 在 DPS 格式 识别 及 技术 元 数据 抽取 中 得 到 实际 应 用 。【 结 论 】 DROID 是 一 个 优秀 的 开源 工具 ， 


其 自动 批 处 理 特性 基本 满足 DPS 格式 处 理 需求 。 
关键 词 : 格式 识别 ”长 期 保存 ”复杂 对 象 
分 类 号 : TP393 


网 络 时 代 , 知识 和 数据 载体 已 从 传统 的 印 本 形式 
向 数字 化 形式 转变 ， 而 每 种 数字 化 的 资源 都 有 其 独特 
的 格式 , 英国 DCC(Digital Curation Center) 在 其 《数字 
保存 指南 》!(Digital Curation Manual) 中 ,专门 针对 文 
件 格 式 问 题 指出 ,“ 格 式 是 数字 对 象 的 基本 特征 , 它 在 
很 大 程度 上 决定 了 数字 对 象 的 有 效 性 , 没有 适当 的 格 
式 , 无 法 识别 数字 对 象 的 内 容 ， 数 字 对 象 就 是 一 组 无 
意义 的 比特 流 。 ” 随 着 时 间 的 推进 , 数字 对 象 的 格式 不 
可 避免 地 会 过 时 ， 为 维护 数字 对 象 的 长 期 可 生存 能 
力 、 可 呈现 能 力 和 可 理解 能 力 , 格式 迁移 作为 一 种 有 
效 的 保存 策略 ,被 众多 项 目 所 采用 ， 并 根据 不 同 的 实 
践 需求 实施 了 不 同 的 格式 管理 措施 。 技 术 元 数据 作为 
长 期 保存 元 数据 的 一 部 分 ， 既 是 格式 管理 的 核心 内 容 ， 
又 是 数字 对 象 格式 迁移 的 基础 。 而 在 目前 的 数字 资源 
长 期 保存 活动 中 , 要 保存 的 数字 对 象 已 不 再 是 单纯 的 
PDF 文件 , 涉及 到 音频 、 视 频 、 图 片 、 文 本 等 多 种 文 
件 格式 (本 文 统称 这 些 对 象 为 复杂 对 象 )， 如 何 正 确 有 


效 获取 复杂 对 象 的 格式 、 版 本 等 信息 ， 并 把 这 些 信息 
作为 技术 元 数据 进行 长 期 保存 和 管理 也 成 为 长 期 保存 
系统 需要 解决 的 关键 问题 。 

国内 外 提供 多 种 数字 对 象 格式 识别 工具 , 用 来 获 
取 不 同 格式 数字 对 象 的 基本 信息 、 格 式 信息 、 可 依赖 
环境 信息 等 , 很 多 机 构 也 根据 实际 需求 选择 合适 的 格 
式 识别 工具 进行 格式 管理 。 中 国 科学 院 文献 情报 中 心 
数字 资源 长 期 保存 系统 (DPS) 在 研发 过 程 中 也 制定 了 
相关 的 格式 管理 策略 , 利用 现 有 格式 识别 工具 对 所 有 
的 文档 进行 格式 注册 管理 并 定期 进行 格式 跟踪 和 监 
测 。 本 文 就 是 基于 DPS 的 这 些 实际 需求 , 重点 探讨 了 
如 何 选 择 符合 要 求 的 格式 识别 工具 , 并 通过 二 次 开发 
封装 以 更 好 地 保障 保存 系统 的 效率 和 执行 效果 。 


1 常用 格式 识别 的 主要 工具 及 其 选 型 


当前 在 长 期 保存 系统 中 常用 的 格式 识别 工具 有 
JHOVE 和 DROID 两 种 。 简 单 对 二 者 进行 介绍 ， 并 从 
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应 用 认 文 


应 用 环境 、 使 用 方式 、 识 别 文 件 类 型 、 识 别 信息 、 结 
果 集 呈现 格式 、 可 识别 文件 类 型 的 扩展 性 、 批 量 处 理 
的 效率 等 对 二 者 进行 对 比分 析 ， 然 后 从 抽取 技术 元 
数据 信息 和 可 识别 文件 类 型 的 角度 考虑 ， 进 行 工 具 
选 型 。 
11 主要 工具 

JHOVE (JSTOR/Harvard Object Validatio Envi- 
ronment) 是 美国 哈佛 大 学 和 JSTOR 共同 研制 的 数字 


对 象 管理 工具 ， 主 要 用 于 数字 对 象 的 格式 标识 、 验 证 
和 特征 描述 。 其 中 , 格式 标识 就 是 确定 一 个 数字 对 象 
的 格式 , 回答 “有 一 个 数字 对 象 ， 那 么 是 什么 格式 ?” 这 
问题 ; 格式 验证 就 是 确定 一 个 数字 对 象 与 其 他 的 格式 
描述 的 吻合 程度 , 回答 “有 一 个 数字 对 象 , 它 的 格式 是 
F, 是 吗 ?* 这 一 问题 ; 格式 特征 描述 是 确定 一 个 给 定格 
式 的 数字 对 象 的 重要 特征 , 回答 “有 一 个 数字 对 象 , 它 
的 格式 是 F, 那么 它 的 显著 特征 是 什么 ?” 这 一 问题 。 
JHOVE 是 基于 Java 的 开源 工具 , 通过 12 个 标准 模块 
支持 文件 格式 的 标识 、 验 证 和 特征 描述 。 当 前 JHOVE 
的 最 新 版 本 为 1.6， 它 提供 图 形 界面 和 命令 行 两 种 使 
用 方式 ， 可 选择 对 单个 文件 处 理 ,， 也 可 对 文件 夹 进行 
递归 处 理 。 目 前 ， DATISS2DB] 应 用 JHOVE 进行 文件 格 
式 验 证 并 提取 技术 元 数据 、Portico 引 应 用 JHOVE 提取 
验证 状态 和 技术 元 数据 、UAM 应 用 JHOVE 进行 文 


件 格式 识别 并 提取 技术 元 数据 、DIAS% 应 用 JHOVE 
抽取 技术 元 数据 。 

DROID(Digital Record Object IDentification) 是 
2005 年 , 由 英国 国家 档案 馆 数 字 资 源 长 期 保存 小 组 为 
了 识别 并 存储 其 长 期 保存 数字 对 象 格式 而 开发 的 数字 
对 象 自动 识别 工具 。DROID 也 是 基于 Java 语言 的 开 
MIE, 使 用 数字 对 象 的 内 部 和 外 部 特征 来 识别 数字 
对 象 的 文件 格式 、 版 本 及 依赖 环境 等 信息 ， 这 些 数 字 
对 象 特征 信息 都 存储 在 一 个 XML 格式 的 “特征 文 
档 ”(Signature File) 中 , “特征 文档 ”由 PRONOM( 在 线 技 
术 注 册 中 心 ) 定 期 更 新 维护 ， DROID 通过 互联 网 方式 
实时 地 到 PRONOM 上 抓 取 最 新 的 “特征 文档 * 用 作 格 
式 识别 ， 当 前 提供 的 最 新 “特征 文档 ”版 本 为 V77。 
DROID 的 最 新 版 本 为 6.1.3， 需 与 互联 网 连接 ， 以 便于 
“特征 文档 ”的 自动 更 新 。 此 工具 操作 简单 , 可 选择 文件 
或 文件 夹 进行 识别 ， 只 需 几 步 即 可 完成 对 文件 格式 的 
识别 ， 识 别 速度 快 、 可 批量 实现 对 数字 文档 的 识别 ， 目 
前 在 DATISS2BI、KB Preservation Manager. Planets", 
PRESERVPSS EL IZ FH DROID 进行 格式 识别 。 

12 ”工具 选 型 

主要 从 JHOVE 和 DROID 的 应 用 环境 、 使 用 方式 、 
识别 文件 类 型 、 识 别 信息 、 结 果 呈 现 格 式 等 方面 对 二 
者 进行 对 比分 析 , 如 表 1 所 示 : 


表 1 JHOVE 和 DROID 主要 特征 对 比 
比较 项 JHOVE DROID 
应 用 跨 平台 , JRE1.6.0 及 其 以 上 ， ” 跨 平台 , JRE1.6.0 以 上 , 最 小 512MB 内 存 ， 需 与 互联 网 连接 ， 可 应 用 在 Windows2000、 
M 
环境 可 应 用 在 Unix, Windows 或 XP. Vista, Macintosh OS X, Red Hat Enterprise Linux, SUSE, Debian, Ubuntu 平 
d 
OSX 平 台 上 台 上 
DBF, DOC, Lotus Formats, MS Works Formats, OpenOffice Formats, MDB, MPP, 
PDF, TXT, GIF, JPEG, PDF, PPT, PST, PUB, RTF, StarOffice Formats, TXT, VSD, WPD, WS and Other 
可 识别 JPEG2000, TIFF, AIFF, WordStar Formats, XLS, BIFF BMP, CDR, Corel Formats, DWG, AutoCad Formats, 
文件 类 型 WAV, HTML, XHTML, DXF, EPS, GeoTIFF, GIF, JPEG, JPEG2000, PageMaker Documents, PCX, PNG, 
a XML 等 PS, PSD, PSP, SWF, Macromedia Formats, SVG, TIFF, AIFF, ASF, AVI, MIDI, 
MOV, MP3, MPG, Real Audio (RM/A), WAV, GML, HTML, ODF, XML, XHTML, 
JS. TAR (Tape Archive Format), ZIP 等 
路 径 或 URI、 最 近 修 改 日 期 、 路 径 或 URI、 最 近 修 改 日 期 、 类 型 、 大 小 、 名 称 、 扩 展 名 、 扩 展 名 是 否 匹 配 、 格 式 识 
识别 信息 ” 大小、 格式、 格式 版 本 、MIME ” 别 数量 、 格 式 名 称 、 格 式 版 本 、PRONOM 唯一 标识 符 、MIME Type、 识 别 方法 、MD5 码 、 
Type、 格 式 配 置 文件 、 校 验 码 ”文件 状态 
结果 文件 
类 型 TEXT, XML XML, CSV 
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从 表 1 中 分 析 可 见 ,， 二 者 都 是 跨 平台 的 ， 都 能 识 
别 文 本 、PDF、 音 视频 、 图 片 等 文件 类 型 ， 都 能 提供 
XML 识别 结果 集 。JHOVE 除了 提供 格式 识别 外 , 还 
有 上 县 有 格式 验证 、 格 式 特征 描述 的 功能 , 能 获取 文件 相 
关 的 软件 信息 ， 其 抽取 的 特征 属性 也 更 丰富 ; 对 于 
JHOVE 可 以 识别 的 格式 类 型 ，JHOVE 和 DROID 在 
性 能 表现 方面 基本 相当 , 但 对 于 JHOVE 无 法 验证 
的 格式 类 型 , JHOVE 与 DROID 相 比 识别 性 能 会 
所 下 降 。 

相对 JHOVE ME, DROID 识别 的 文件 类 型 更 多 ， 
DROID 与 PRONOM' 技术 信息 注册 中 心 联 盟 ， 对 当 
前 无 法 识别 的 文件 格式 ， 支 持 用 户 在 线 自助 注册 要 扩 
展 的 文件 类 型 ，PRONOM 将 新 增 格 式 定 期 更 新 到 “ 特 
征文 档 ” 中 , 同时 还 可 以 通过 PRONOM 唯一 标识 符 到 
PRONOM 上 获取 文件 的 生产 软件 、 生 产 商 、 文 件 生命 
周期 、 迁 移 方法 等 信息 。 另 外 , DROID 本 身 是 因 长 期 
保存 数字 对 象 存储 而 开发 的 ,其 提供 的 自动 批量 格式 
识别 更 接近 笔者 的 需求 , 因此 从 多 角度 综合 考虑 ， 
DROID 工具 是 一 种 更 为 合适 的 选择 。 


2 DROID 主要 功能 原理 及 其 识别 实例 


2.1 主要 功能 原理 

DROID 提供 Extension、Signature 和 Container 三 
种 识别 方法 。 

(1) Extensiont 识 别 是 完全 通过 文件 扩展 名 来 识 
别 文 件 格式 ， 因 为 文件 可 以 选择 任何 方式 来 命名 , 所 
以 这 种 识别 方法 不 是 很 可 靠 , 同时 Extension 识别 也 无 
法 识别 到 格式 的 版 本 级 别 ， 有 时 同一 文件 还 会 识别 出 
多 种 格式 结果 , 因此 该 识别 方式 比较 粗 泛 。 

(2) Signature 识别 是 针对 一 类 特定 数字 对 象 ， 这 
类 数字 对 象 的 内 部 包含 格式 的 特征 属性 ，Signature 识 
别 方 法 通过 数字 对 象 的 内 部 特征 来 识别 数字 对 象 格式 
及 版 本 , 因为 数字 对 象 的 内 部 特征 是 唯一 的 、 且 不 易 
被 外 界 改变 , 因此 这 种 识别 模式 非常 有 效 可 靠 。 

(3) Container 识别 是 通过 识别 内 艇 数字 对 象 来 
获取 文件 格式 和 版 本 信息 ,以 OpenDocument 为 例 , 一 
个 OpenDocument 是 一 个 包含 多 个 XML, Images 等 数 
字 对 象 的 ZIP 文件 ，Container 识别 方法 将 识别 该 数字 
对 象 的 格式 是 OpenDocument 而 不 是 ZIP。Container 
识别 方式 不 仅 对 容器 进行 识别 (比如 ZIP),， 它 还 将 压缩 
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文件 打开 ， 对 压缩 包 内 的 数字 对 象 进 一 步 识别 ， 这 种 
识别 方法 底层 也 是 使 用 Signature 方式 ,因此 Container 
也 是 一 种 非常 可 信 的 识别 模式 。 

对 于 上 述 三 种 识别 方式 ， DROID 优先 选用 
Signature, 如果 Signature 识别 未 获取 到 数字 对 象 格式 ， 
则 依次 选用 Container、Extension 识别 方法 来 完成 文件 
格式 的 识别 。 

DROID 既 提 供 对 单个 文件 的 格式 识别 ,也 提供 对 
一 个 目录 的 格式 识别 , 即 DROID 是 以 一 个 文件 或 目 
录 作 为 输入 ,识别 出 文件 的 路 径 或 URI、 最 近 修 改 日 
期 、 类 型 、 大 小 、 名 称 、 扩 展 名 、 扩 展 名 是 否 匹配 、 
格式 识别 数量 、 格 式 名 称 、 格 式 版 本 、PRONOM 唯一 
标识 符 、MIME Type、 识 别 方法 、MD5 码 、 文 件 状 态 
信息 , 最 后 以 XML、CSV、Printer-Friendly Formats 格 
式 提供 给 第 三 方 使 用 。 

DROID 提供 了 GUI 和 命令 行 两 种 使 用 方式 , 能 识 
a) 1 000 多 种 文件 格式 ， 对 无 法 识别 的 文件 格式 ， 
DROID 通过 PRONOM 提供 用 户 在 线 自助 扩展 功能 。 
下 面 以 命令 行 方式 为 例 , 分 析 DROID 工具 的 整个 识 
别 过 程 。 

2.0 ”识别 过 程 分 析 

DROID 工具 提供 的 API 都 是 命令 行 方式 ， 它 是 一 
种 伪 APL 不 是 真正 意义 上 的 API 接口 , 本 文中 简称 
DROID-API, 该 接口 可 单独 使 用 , 也 可 简单 与 其 他 系 
统 集成 DROID-API 接口 不 允许 所 有 的 操作 集中 在 一 
个 单独 的 命令 行 完 成 ， 需 要 分 两 个 阶段 完成 整个 文件 
的 格式 识别 。 图 1 是 使 用 DROID-API 接口 对 一 个 文 
件 或 文件 夹 进 行 识别 的 全 流程 。 

(1) 文件 格式 识别 

第 一 阶段 是 创建 新 的 Profiles 并 将 格式 识别 结果 
保存 到 DROID 的 内 部 文件 。 

DROID 首先 为 即将 识别 的 文件 或 文件 夹 自动 创 
建 一 个 空白 Profiles, 一 个 Profiles 是 一 个 单独 的 目录 ， 
该 目录 下 包含 最 新 版 本 的 SignatureFile、 数 据 库 、 索 
引 、 日 志 、Profile.xml 文件 ，Profiles 主要 用 来 管理 并 
记录 格式 识别 过 程 使 用 的 SignatureFile、 识 别 过 程 和 
识别 结果 。 图 2 是 一 个 Profiles 的 目录 结构 。 

其 中 ,Profile.xml 文件 内 容 记 录 了 Profiles 的 唯一 
标识 、 创 建 日 期 、 使 用 的 SignatureFile 文件 及 其 版 本 、 
是 否 居 用 MD5 SS, 详细 内 容 如 图 3 所 示 。 
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1 DROID-API 识别 过 程 


Econtainer-signature-20131112. xml 回 seg0 
名 DROID_SignatureFile_Y72. xml Otm 
名 profile. xml 


|^] service. properties 


2 Profiles 的 目录 结构 


<?xml versionz"1.0" encoding="UTF-8" standalone" yes" ?> 
| «Profile Id= "1392257852203 > 

<CreatedDate>2014-02-13T10:17:32.203+08:00</CreatedDate> 

- «ProfileSpec» 

«Resources /> 

«JProfileSpec» 
«SignatureFileVersion»72«/SignatureFlleVersion» 
«ContainerSignatureFileVersion»20131112«/ContainerSignatureFile Version» 
«Throttle» Q«/Throttle» 
«SignatureFleName»DROID SignatureFile V72.xml«/SignatureFileName» 
«ContainerSignatureFileName»container-signature-20131112.xml«/ContainerSignatureFlleName» 
«GenerateHash»false«/GenerateHash» 
«ProcessArchiveFiles»true«/ProcessArchiveFiles» 
«MaxBytesToScan»65536 «/MaxBytesToScan»? 
«MatchAllExtensions»false«/MatchAllExtensions» 

«JProfile» 


3 Profile.xml 的 详细 内 容 


Profiles 创建 完成 后 ,将 要 识别 的 文件 或 文件 夹 加 
载 到 上 述 刚刚 创建 的 Profile.xml FB, 在 加 载 过 程 中 获 
取 文 件 名 、 扩 展 名 、 路 径 、URI、 大 小 、 最 新 更 新 日 
期 追加 到 Profilexml 文件 中 ,以 文件 112007. 
Article 7124.xml 和 expense.xls 为 例 来 展示 DROID 工 
县 的 “Add resource” 的 过 程 , 如 图 4 所 示 : 


4 ”加 载 待 识别 源 后 的 Profile.xml 内 容 


DROID 对 已 经 加 入 到 Profile.xml 中 的 文件 或 文件 
夹 进行 格式 识别 , 在 此 ， 要 注意 一 旦 开始 对 文件 进行 
识别 ， 不 能 再 向 刚刚 创建 的 Profiles 中 再 添加 任何 文 
FHEAR, 如果 还 想 识 别 其 他 的 文件 ， 需 要 重新 创建 
一 个 Profileso 

如 上 所 述 , DROID 完成 了 指定 文件 或 文件 夹 的 格 
式 识别 ,并 将 识别 结果 保存 到 .droid 格式 的 内 部 文件 ， 
完成 第 一 阶段 的 识别 工作 。 

(2) 结果 输出 

第 二 阶段 是 将 识别 结果 通过 Filter、 Report、 Export 
的 形式 转 为 CSV 或 XML 格式 的 外 部 结果 集 文件 供 第 
三 方 使 用 。 

以 Export 方式 为 例 , 即使 用 下 述 命 令 :“droid 
—p.droid 文件 路 径 —e.csv 文件 绝对 路 径 ”， 将 识别 结 
保存 到 CSV 文件 中 , 得 到 样 例 结果 如 图 5 所 示 , 到 此 ， 
完成 整个 文件 的 格式 识别 。 

第 三 方 如 想 使 用 DROID 识别 出 的 结果 集 ， 需 要 对 
CSV 或 XML 文件 进行 解析 获取 需要 的 格式 信息 即 可 。 


ARENT IDURI — FILE PATENAXE METHOD STATUS SUE TIPE 
| file:/D:iD: PSde t1, 2007. 2S: ematureDone 1574File 
2 file:/D:/D:\expensexpense, S gnature Done 5255 File 


LIST YODIENTENSTOMES, HASH FORMAT CCPUID 
ml — 200404 FALSE 
xls 2012-114 TRE 


KIME TYPEFORIAT _ 
1 fmt/101 applicatiErtensi 
1 fnt/100 text/htnlyperte 


5 DROID 的 识别 结果 
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3 DROID 在 长 期 保存 系统 中 的 集成 应 用 


中 国 科 学 院 文 献 情报 中 心 数 字 资 源 长 期 保存 系统 
在 数据 格式 接收 中 有 自己 的 政策 要 求 。 

(1) 要 求 数据 资源 提供 商 按 业界 公共 的 或 通用 的 
标准 格式 提供 元 数据 、 全 文 数据 以 及 附加 资料 数据 ， 
以 便 建立 公共 的 格式 解析 、 内 容 检验 和 数据 转换 程序 ; 

(2) 除非 因 特 殊 原因 无 法 提供 公共 格式 数据 、 且 
得 到 中 国 科学 院 文献 情报 中 心 同意 后 , 才 人 允许 数据 资 
源 提供 商 提 供 不 同 于 公共 格式 的 数据 格式 , 并 且 不 允 
许 对 方 提供 完全 私密 的 格式 。 

基于 以 上 政策 要 求 , 中国 科学 院 文献 情报 中 心 数 
字 资 源 长 期 保存 系统 (DPS) 目 前 接收 存档 数据 特点 是 : 
数据 量 大 , 同时 涉及 到 PDF、 图 片 、 音 视频 、 表 格 、 
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文件 识别 


Folder File 


lo[npouos 


4 Round robin folder 


格式 信息 
存档 


repository 
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文本 等 多 种 格式 的 数字 对 象 。 而 DPS 是 以 每 次 接收 的 
SIP 集合 为 处 理 对 象 , 每 个 SIP S&P RISE ET. g 
则 包含 上 百 万 、 上 千 万 个 数字 对 象 , DPS 需要 对 每 个 数 
字 对 象 进 行 格 式 识别 并 抽取 技术 元 数据 进行 长 期 保存 。 

如 果 在 DPS 中 直接 使 用 DROID-API 接口 , 根据 
现 有 存档 流程 ， 需 要 为 每 个 数字 对 象 生 成 一 个 格式 
为 .droid 的 中 间 文 件 ， 再 将 该 文件 转换 成 格式 为 CSV 
或 XML 的 最 终结 果 集 文件 , 最 后 对 结果 集 文件 实现 
解析 获取 需要 的 技术 信息 进行 存档 ,这 种 使 用 方式 会 
反复 创建 、 读 写 中 间 文 件 ， 从 减少 对 中 间 文 件 的 读 写 
操作 、 提 高 DROID 识别 效率 上 考虑 , 笔者 调整 了 DPS 
的 存档 流程 , 并 对 DROID 源码 进行 二 次 封装 和 集成 ， 
即 在 存档 流程 之 前 增加 “DROID 批量 格式 识别 ”过 程 ， 
然后 将 其 结果 集 应 用 在 DPS 中 ， 具 体 流 程 如 图 6 所 示 : 
一 一 Close profiles 

Create/Open 


A 
profiles 


Get result 
Of event 


PRONOM 


6 DROID ft DPS 应 用 


(1) 使 用 DROID 完成 批量 格式 识别 

调整 了 DPS 的 存档 流程 ， 即 存档 流程 之 前 增加 
“批量 格式 识别 ”处 理 过 程 , 将 DROID 第 一 阶段 和 第 二 
阶段 的 DROID-API 进行 封装 , 使 其 一 次 完成 批量 格 
式 识 别 和 结果 输出 。 例 如 : 一 批 数据 有 4 万 篇 文章 、 
每 篇 文章 有 1 个 附件 , 即将 上 述 8 万 个 文件 一 次 性 进 
行 批量 格式 识别 ， 生 成 可 供 第 三 方 使 用 的 .csv ARE 
文件 。 即 调用 一 次 DROID-API, 创建 1 个 Profiles, $T 
开 、 关 闭 一 次 Profile, 一 次 将 内 部 结果 .droid 转换 


为 .csv 结果 集 , 批量 识别 方式 减少 了 文件 的 创建 、 打 
开 、 关 闭 操作 ,提高 了 处 理 效率 , 减 小 了 系统 开销 。 
(2) 识别 结果 集 在 DPS 中 的 应 用 
针对 上 述 生成 的 .csv 格式 的 结果 集 文 件 , 如 在 
DPS 中 直接 使 用 以 上 述 数据 为 例 ， 需 要 进行 8 万 次 
打开 、 读 取 文 件 操作 ,必然 增加 系统 开销 。 因 此 ,考虑 
将 .csv 文件 内 容 导入 数据 库 临 时 表 , 在 存档 过 程 中 以 
文件 的 “FILE_ PATH 为 检索 条 件 ， 从 临时 表 中 唯一 获 
取 文 件 格式 信息 进行 长 期 保存 。 由 于 数据 库 读 写 技 术 
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相对 成 熟 完善 ， 导 入 临时 表 后 , 可 为 需要 检索 的 关键 
字段 建立 索引 ， 提 高 检索 效率 , 相 上 比较 对 .csv 文件 的 
操作 , 可 大 大 提高 检索 速度 及 准确 度 。 


4 DROID 的 评价 指标 分 析 及 验证 


笔者 结合 数字 资源 长 期 保存 项 目 实际 需求 ,在 使 
用 DROID 进行 格式 识别 实验 时 ， 着 重 从 以 下 6 个 评价 
旨 标 对 DROID 进行 分 析 和 验证 。 

(1) RER 

格式 识别 工具 能 识别 的 文件 类 型 是 目前 项 目 比 较 
关注 的 一 个 评价 指标 。 

DROID 使 用 文件 内 部 和 外 部 特征 来 识别 文件 格 
式 , 这 些 数字 对 象 特征 信息 都 存储 在 一 个 XML 格式 
的 “特征 文档 ”中 ,“ 特 征文 档 ” 由 英国 国家 档案 馆 定期 
进行 更 新 , 目前 V77 的 “特征 文档 ”中 包含 1 400 多 种 
文件 格式 。 同 时 实验 表明 , 目前 DPS 涉及 到 的 99% 以 
上 的 文件 格式 都 出 现在 “特征 文档 ”中 。 

Q) 可 扩展 性 

DROID 在 新 增 文 件 格式 和 对 已 有 文件 格式 特性 
的 更 新 上 具有 可 扩展 性 。 

DROID 能 识别 的 文件 格式 都 记录 在 “特征 文档 ” 
中 , 可 以 通过 新 增 或 更 新 “特征 文档 ”进行 文件 格式 的 
新 增 和 更 新 。 

(3) 识别 粒度 

DROID 格式 识别 的 粒度 到 PUID(PRONOM 
Unique IDentifiers) 和 MIME Type， 它 可 以 通过 PUID 
直接 关联 到 “在 线 技 术 注 册 中 心 ”。 

(4) 处 理赔 套 对 象 的 能 

不 是 所 有 的 工具 都 能 够 识别 说 套 对 象 ， 目 前 
EPUB 和 Open Document Format 都 使 用 ZIP 作为 容 
器 , 能 否 识别 说 套 对 象 是 评价 识别 工具 非常 必要 的 一 
个 指标 。 实 验证 明 , DROID 能 识别 内 散在 ZIP 中 的 所 
有 文件 ， 并且 将 其 识别 信息 包含 在 识别 结果 集中 。 

(5) 处 理 复合 对 象 的 能 

能 否 识别 复合 对 象 也 是 评价 格式 识别 工具 非常 重 
要 的 一 个 指标 。 测 试 证 明 , DROID 能 识别 EPUB 和 
Open Document Format、HTML 复合 对 象 。 

(6) 计算 性 能 

DROID 在 计算 速度 、 内 存 和 系统 资源 使 用 上 满足 
基本 的 要 求 ， 主 要 从 单 文件 识别 和 批量 文件 识别 进行 
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实验 计算 性 能 对 比 , 如 表 2 和 表 3 所 示 : 
表 2 单 文件 识别 使 用 时 间 对 比 
单个 文件 最 小 单个 文件 平均 单个 文件 最 


H EE 

文件 数 。 执行 时 间 Mi 。 大 执行 时 间 TOT 
a») ( 秒 ) ( 秒 ) i 

11 892 11.19 11.90 23.02 141 514 


X3 批量 文件 识别 使 用 时 间 对 比 
文件 数 RIER) 生成 CSV 耗 时 ( 秒 ) 总 耗 时 ( 秒 ) 
11 892 193 22 215 
实验 表明 , DROID 在 批量 格式 识别 时 的 计算 性 能 
相当 不 错 , 能 满足 大 数据 量 的 文件 格式 识别 需求 。 


5 结 语 


总 体 来 说 , DROID 是 一 个 优秀 的 开源 工具 , 在 应 
用 中 , 仍 需 要 更 深入 分 析 其 执行 原理 和 源码 ， 有 效 利 
用 它 的 工作 机 制 和 方式 , 这样 才 会 在 集成 过 程 更 高 
效 、 健 壮 地 使 用 DROID 进行 文件 格式 识别 ,也 能 
DROID 的 优势 得 到 更 大 的 发 挥 。 

(1) 大 批量 数据 格式 识别 应 选用 DROID 批量 格式 
识别 方式 

DROID 有 单 文件 识别 和 批量 文件 识别 两 种 方式 ， 
从 DROID 的 计算 性 能 分 析 可 见 ， 在 大 批量 数据 对 象 
识别 中 DROID 工具 以 批量 处 理 为 优势 。 

(2) 注意 DROID 不 同 版 本 之 间 的 差别 

在 实验 中 还 发 现 , 使 用 DROID 的 V45 版 的 
SignatureFile 无 法 正确 地 完成 文件 格式 的 批量 识别 ， 
将 其 升级 到 V72 以 上 版 本 , 才 可 完成 文件 格式 的 批量 
处 理 , 因此 在 应 用 过 程 中 不 仅 要 考虑 软件 的 版 本 还 要 
注意 SignatureFile 版 本 之 间 的 差异 , 使 用 过 程 中 要 根 
据 实际 需求 考虑 选用 合适 的 版 本 进行 格式 识别 。 

(3) 充分 考虑 系统 集成 和 更 新 

DROID 是 一 种 开源 工具 , 开源 社区 也 在 不 断 进 行 
维护 和 版 本 升级 。 在 实际 应 用 中 , 笔者 是 把 DROID 作 
为 一 个 模块 集成 到 保存 系统 的 存档 流程 中 ， 从 集成 模 
块 的 后 续 维护 和 升级 角度 考虑 ， 在 集成 方式 上 采用 整 
体 集成 ， 以 确保 集成 模块 随 着 开源 社区 不 断 升级 可 以 
一 起 进行 无 颖 升级。 
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Application of DROID About Format Identification in Long-term 
Preservation System 


Wang Yuju Wu Zhenxin Kong Beibei 


Fu Honghu 


(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: [Objective] Integrate open source file-format identification tool into Digital Preservation System (DPS) to 


get complex object format information. [Context] Based on the existing open source tools, to meet the practical 


requirements, the DPS needs choose appropriate tools for application integration. [Methods] Analyze and compare 


several open source file-format identification tools. According to the practical requirements, DROID has been chosen for 


the DPS. At the same time to meet the efficiency requirements of DPS, an idea of choosing DROID batch format 


identification of complex objects is proposed. [Results] Batch format processing module which is integrated with DROID 


is utilized to complete format identification of complex objects and technical metadata extraction. [Conclusions] DROID 


is an excellent open source tool, of which the automatic batch processing can meet the requirements of DPS. 


Keywords: Format identification Long-term preservation Complex object 
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